3장. 토큰과 파라미터, 모델의 단위

이 장의 목표 2장에서 잠깐 본 토큰과 파라미터(B) 를 이제 정식으로 정리합니다.

이 두 가지만 알면 앞으로 만나게 될 거의 모든 숫자가 머릿속에서 그림으로 보입니다.

3.1 토큰 — 모델이 보는 단위

복습부터.

모델은 글자나 단어가 아니라 토큰 이라는 단위로 글을 봅니다.

"오늘 날씨는 맑습니다"
        ↓
[ "오늘", " 날씨", "는", " 맑", "습니다" ]

토큰은 보통 다음 중 하나입니다.

자주 등장하는 단어 통째로 (“the”, “ AI“)
자주 등장하는 접두/접미 (“ing”, “ un“)
한 글자

영어처럼 알파벳이 적은 언어는 한 토큰이 보통 한 단어에 가까운 반면,

한국어·일본어·중국어는 한 글자 또는 그보다 잘게 쪼개지는 일이 많습니다.

한국어가 영어보다 토큰이 많은 이유

같은 문장을 영어와 한국어로 비교해 봅니다.

영어:  "I love local AI."
        → [ "I", " love", " local", " AI", "." ]   (5 토큰)

한국어: "저는 로컬 AI를 좋아합니다."
        → [ "저", "는", " 로", "컬", " AI", "를",
            " 좋", "아", "합", "니다", "." ]       (11 토큰)

같은 의미인데 한국어가 토큰을 두 배 넘게 씁니다.

이게 나중에 이런 결과로 이어집니다.

한국어 답변이 영어보다 느리게 느껴짐
같은 8K 컨텍스트인데 한국어로는 더 적은 정보만 들어감

3.2 토큰 수 = 시간 = 메모리

토큰이 늘어나면 정확히 세 가지가 늘어납니다.

늘어나는 것	영향
입력 토큰 수	모델이 처음 읽는 시간(prefill)이 길어짐
출력 토큰 수	답변 생성 시간이 길어짐
전체 컨텍스트	메모리(KV Cache) 사용량이 늘어남

요점:

클라우드 AI에서 토큰은 “돈“이고, 로컬 AI에서 토큰은 “시간 + 메모리“입니다.

그래서 로컬 AI에서는 “답변을 짧게 해줘” “불필요한 인사말 빼” 같은 요청이 의외로 큰 차이를 만듭니다.

3.3 파라미터 — 모델 안의 “지식 메모”

이번엔 모델의 크기 표시입니다.

Qwen3-32B
Llama-3-70B
Gemma-3-27B

여기서 B 는 Billion(10억) 입니다.

표기	의미
7B	약 70억 개
14B	약 140억 개
32B	약 320억 개
70B	약 700억 개
405B	약 4,050억 개

무엇이 70억 개라는 걸까요?

답: 가중치(weight) 라는 숫자입니다.

가중치는 학습할 때 결정된 “세상에 대한 메모” 같은 숫자입니다.

쉬운 비유:

모델 = 거대한 엑셀 시트
파라미터 = 그 시트에 적힌 숫자들

70억 개의 숫자가 모두 합쳐져 “다음 토큰을 예측하는 데 쓰이는 규칙” 을 만들어냅니다.

3.4 파라미터가 많으면 뭐가 좋고 뭐가 나쁜가

좋은 점

더 많은 지식을 담을 수 있음
더 복잡한 추론이 가능
더 다양한 분야를 다룰 수 있음

나쁜 점

더 많은 메모리가 필요
더 느림 (매 토큰마다 모든 숫자를 봐야 함)
다운로드 크기가 큼
발열·배터리 소모가 큼

“그럼 무조건 큰 게 좋나요?”

아닙니다.

같은 32B여도 더 잘 만든 32B 가 더 못 만든 70B를 이기는 일이 요즘은 흔합니다.

특히 2025~2026년 모델들은 “잘 다듬은 작은 모델“이 더 인기입니다.

로컬 AI 입문자의 황금 영역 7B ~ 32B

이 범위 안에서 양자화·튜닝을 잘 고르는 게 무거운 70B를 끙끙대며 돌리는 것보다 훨씬 실용적입니다.

3.5 같은 32B인데 왜 어떤 건 20GB이고 어떤 건 64GB인가?

이게 처음 보면 정말 헷갈리는 부분입니다.

Qwen3-32B (원본, FP16)         →  약 64GB
Qwen3-32B (Q8 양자화)          →  약 35GB
Qwen3-32B (Q4 양자화)          →  약 20GB

같은 모델인데 파일 크기가 다릅니다.

이유는 숫자 하나를 표현하는 데 몇 비트(bit)를 쓰느냐 가 다르기 때문입니다.

이 부분이 5장에서 다룰 양자화 이야기입니다.

지금은 이 한 줄만 머리에 넣어두세요.

같은 파라미터 수여도 “한 숫자를 얼마나 정밀하게 저장하느냐” 에 따라 파일 크기와 메모리 사용량이 크게 달라진다.

3.6 그래서 모델 크기를 보면 뭐가 보여야 하는가

이제 모델 이름을 보면 이런 정보가 머릿속에서 자동으로 뜹니다.

Qwen3-32B-Instruct

32B → 파라미터 약 320억 개, 원본 파일은 60~64GB쯤, Q4로 줄이면 20GB 정도
Instruct → 질문에 답하도록 다듬어진 버전 (2장 §2.4)

Llama-3-70B-Chat

70B → 큰 모델, 원본 140GB+, Q4여도 40GB 정도라 64GB 맥에서는 무겁게 돈다
Chat → 대화용으로 정렬까지 마친 버전

Qwen3-30B-A3B-Instruct

30B 인데 A3B 가 붙음 → MoE 구조(14장)에서 활성 파라미터가 3B 라는 의미
메모리는 30B만큼 먹지만 계산량은 3B에 가까움

이 장에서 기억할 한 가지

토큰 = 모델이 읽고 쓰는 단위. 파라미터 = 모델 안의 “지식 숫자” 개수.

토큰이 많을수록 시간·메모리가 늘고, 파라미터가 많을수록 보통 똑똑해지지만 무거워집니다.

그리고 같은 파라미터 수여도 저장 방식(양자화)에 따라 메모리·속도가 크게 달라집니다.

손으로 해볼 것

1. 한·영 토큰 수 직접 비교

tiktokenizer.vercel.app 에 들어가서 다음 두 문장을 차례로 넣어보세요.

저는 오늘 회사에서 처음으로 로컬 AI를 돌려봤습니다.

I ran a local AI on my Mac for the first time today.

같은 의미인데 한국어 토큰 수가 얼마나 더 많은지 직접 보세요.

2. Hugging Face에서 모델 크기 감 잡기

huggingface.co 에서 Qwen3 를 검색해보세요.

7B, 14B, 32B 모델 페이지를 열어 Files and versions 탭에서 원본 파일 용량을 확인하세요.

같은 시리즈인데 파라미터 수가 늘어날 때 파일 크기가 어떻게 늘어나는지 보세요.

다음 장에서는 “내 맥의 64GB 메모리에 32B 모델이 정말 들어가는가?” 를 직접 계산해봅니다.

이때부터 양자화의 필요성이 본격적으로 보이기 시작합니다.

Keyboard shortcuts

맥에서 시작하는 로컬 AI